Análise Multivariada

Author

Caio Falcão, Claudionor Ferreira, Guilherme Ceacero, Paulo Martinez

Trabalho final da disciplina de Análise Multivariada, referente ao primeiro período de 2024. Esse trabalho é uma colaboração de Caio Falcão, Claudionor Ferreira, Guilherme Ceacero e Paulo Martinez.

Questão 1

<<<<<<< HEAD Nesta seção, demonstramos a direção discriminante de Fisher para discriminação linear entre duas populações. Consideramos duas populações \pi_1 e \pi_2 baseadas na amostra rotulada ( {(xj , \pi_i), \space j = 1, \ldots , n, \space i = 1, 2} ), em que n_1 + n_2 = n e n_i é o número de elementos da população \pi_i. ======= Nesta seção, demonstramos a direção discriminante de Fisher para discriminação linear entre duas populações. Consideramos duas populações \pi_1 e \pi_2 baseadas na amostra rotulada ( {(x_j , \pi_i), \space j = 1, \ldots , n, \space i = 1, 2} ), em que n_1 + n_2 = n e n_i é o número de elementos da população \pi_i. >>>>>>> 9fcdf72993727f9e2351175e6f4f50192b609315

Considerações

Definições

  • \bar{x}_i representa o vetor de médias das observações em \pi_i.
  • S_i representa a matriz de covariâncias amostral das observações em \pi\_i.
  • S_p = \frac{(n_1-1)S_1 + (n_2-1)S_2}{n-2} é a matriz de covariâncias combinada.

Projeção

Para \alpha, x \in \mathbb{R}^p, definimos a projeção como:

\begin{align} & z = \alpha^T x \end{align}

E consequentemente, as médias das populações \pi_1 e \pi_2 projetadas serão

\hat m_1 = \alpha^T \space \bar{x}_1

\hat m_2 = \alpha^T \space \bar{x}_1

E a diferença dessas projeções sendo

\hat m_1 - \hat m_2 = \alpha^T(\bar{x}_1 - \bar{x}_2).

A variabilidade resultante na projeção é a variância da projeção z, que é dada por

\begin{align} & Var(z) = Var(\alpha^T x) \nonumber \\ & = \alpha^T \space Var(x) \space \alpha \nonumber \\ & = \alpha^T \mathcal{S}_p \space \alpha \nonumber \end{align}

E então, \phi = \left(\frac{\hat m_1 - \hat m_2}{S_z}\right)^2 = \left(\frac{\alpha^T (\bar{x}_1 - \bar{x}_2)}{\sqrt{\alpha^T S_p \space \alpha}}\right)^2.

Maximização da Distância

Queremos encontrar a direção \alpha que maximiza a distância entre as médias projetadas das populações com relação à variabilidade resultante na projeção. Ou seja, queremos maximizar:

\begin{equation} \phi = \left(\frac{\alpha^T (\bar{x}_1 - \bar{x}_2)}{\sqrt{\alpha^T S_p \alpha}}\right)^2 \end{equation}

Demonstração

Vamos aplicar a restrição \alpha^T S_p \space \alpha constante e igual à 1, pois do contrário poderíamos ter \phi tão grande quanto desejável. Nesse caso, então, vamos usar o método de Lagrange para otimização com restrição.

Começamos com a expressão a ser maximizada:

\phi = \frac{(\alpha^T (\bar{x}_1 - \bar{x}_2))^2}{\alpha^T S_p \space \alpha}

Para maximizar \phi, usamos multiplicadores de Lagrange. Definimos a função Lagrangiana:

\mathcal{L}(\alpha, \lambda) = (\alpha^T (\bar{x}_1 - \bar{x}_2))^2 - \lambda (\alpha^T S_p \space \alpha - 1)

Tomamos a derivada em relação a \alpha e a igualamos a zero:

\frac{\partial \mathcal{L}}{\partial \alpha} = 2 (\bar{x}_1 - \bar{x}_2) (\alpha^T (\bar{x}_1 - \bar{x}_2)) - \lambda 2 S_p \alpha = 0

E agora, para \lambda:

\frac{\partial \mathcal{L}}{\partial \lambda} = \alpha^T S_p \space \alpha - 1

O que nos fornece então o seguinte sistema de equações:

\begin{cases} \frac{\partial \mathcal{L}}{\partial \alpha} = 2 (\bar{x}_1 - \bar{x}_2) (\alpha^T (\bar{x}_1 - \bar{x}_2)) - \lambda 2 S_p \space \alpha = 0 \\ \\ \frac{\partial \mathcal{L}}{\partial \lambda} = \alpha^T S_p \space \alpha - 1 \end{cases}

Da primeira equação, temos que

(\bar{x}_1 - \bar{x}_2) = \lambda S_p \space \alpha

Para encontrar \lambda, substituímos \alpha na segunda equação de restrição:

\begin{equation} (\bar{x}_1 - \bar{x}_2) = \lambda S_p \space \alpha \implies \alpha = \frac{S_p^{-1}(\bar{x}_1 - \bar{x}_2)}{\lambda} \end{equation}

A partir da restrição \alpha^T S_p \space \alpha = 1, temos:

\begin{align} & \left(\frac{S_p^{-1}(\bar{x}_1 - \bar{x}_2)}{\lambda}\right)^T S_p \left(\frac{S_p(\bar{x}_1 - \bar{x}_2)}{\lambda}\right) = 1 \nonumber \\ & \frac{1}{\lambda^2}(\bar{x}_1 - \bar{x}_2)^T S_p^{-1} \space S_p S_p^{-1} (\bar{x}_1 - \bar{x}_2) = 1 \nonumber \\ & \lambda^2 = (\bar{x}_1 - \bar{x}_2)^T S_p^{-1} (\bar{x}_1 - \bar{x}_2) \nonumber \\ & \lambda = \sqrt{(\bar{x}_1 - \bar{x}_2)^T S_p^{-1} (\bar{x}_1 - \bar{x}_2)} \end{align}

E agora, substituindo \lambda encontrado em (4) na equação de \alpha (3), temos:

\begin{equation} \alpha = \frac{S_p^{-1}(\bar{x}_1 - \bar{x}_2)}{\sqrt{(\bar{x}_1 - \bar{x}_2)^T S_p^{-1} (\bar{x}_1 - \bar{x}_2)}} \end{equation}

<<<<<<< HEAD Note que o denominador dessa equação é um escalar 1x1, e portanto, a direção de \alpha que maximiza a diferença das duas populações é dada pelo vetor \alpha = S_p^{-1}(\bar{x}_1 - \bar{x}_2) pelo método de otimização restrita de Lagrange. ======= Note que o denominador dessa equação é um escalar 1 \times 1, e portanto, a direção de \alpha que maximiza a diferença das duas populações é dada pelo vetor \alpha = S_p^{-1}(\bar{x}_1 - \bar{x}_2) pelo método de otimização restrita de Lagrange. >>>>>>> 9fcdf72993727f9e2351175e6f4f50192b609315

Conclusão

Dessa forma, mostramos que a direção \alpha que maximiza a distância entre as médias projetadas das populações com relação à variabilidade resultante na projeção é a direção discriminante de Fisher.

Questão 2

Carregando pacotes exigidos: heplots
Carregando pacotes exigidos: broom

Anexando pacote: 'candisc'
O seguinte objeto é mascarado por 'package:stats':

    cancor

Anexando pacote: 'dplyr'
Os seguintes objetos são mascarados por 'package:stats':

    filter, lag
Os seguintes objetos são mascarados por 'package:base':

    intersect, setdiff, setequal, union

Anexando pacote: 'gridExtra'
O seguinte objeto é mascarado por 'package:dplyr':

    combine
Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
Package 'mclust' version 6.1.1
Type 'citation("mclust")' for citing this R package in publications.

Anexando pacote: 'MVN'
O seguinte objeto é mascarado por 'package:mclust':

    mvn

Anexando pacote: 'MASS'
O seguinte objeto é mascarado por 'package:dplyr':

    select

Após realizar a importação da base de dados, verificamos se a base possui valores faltantes e se as variáveis estão corretamente formatadas:

     group location sex  x1  x2  x3   x4   x5   x6   x7   x8   x9
rmm1  rm:m       rm   m 126 104 141 81.0 31.8 65.7 50.9 44.0 18.2
rmm2  rm:m       rm   m 128 111 151 80.4 33.8 69.8 52.7 43.2 18.5
rmm3  rm:m       rm   m 126 108 152 85.7 34.7 69.1 49.3 45.6 17.9
rmm4  rm:m       rm   m 125 109 141 83.1 34.0 68.0 48.2 43.8 18.4
rmm5  rm:m       rm   m 126 107 143 81.9 34.0 66.1 49.0 42.4 17.9
rmm6  rm:m       rm   m 128 110 143 80.6 33.0 65.0 46.4 40.2 18.2
# A tibble: 12 × 3
   variable n_miss pct_miss
   <chr>     <int>    <num>
 1 group         0        0
 2 location      0        0
 3 sex           0        0
 4 x1            0        0
 5 x2            0        0
 6 x3            0        0
 7 x4            0        0
 8 x5            0        0
 9 x6            0        0
10 x7            0        0
11 x8            0        0
12 x9            0        0
'data.frame':   25 obs. of  12 variables:
 $ group   : Factor w/ 4 levels "ar:f","ar:m",..: 4 4 4 4 4 4 3 3 3 2 ...
 $ location: Factor w/ 2 levels "ar","rm": 2 2 2 2 2 2 2 2 2 1 ...
 $ sex     : Factor w/ 2 levels "f","m": 2 2 2 2 2 2 1 1 1 2 ...
 $ x1      : 'labelled' int  126 128 126 125 126 128 116 120 116 117 ...
  ..- attr(*, "label")= chr "palatal length"
 $ x2      : 'labelled' int  104 111 108 109 107 110 102 103 103 99 ...
  ..- attr(*, "label")= chr "postpalatal length"
 $ x3      : 'labelled' int  141 151 152 141 143 143 131 130 125 134 ...
  ..- attr(*, "label")= chr "zygomatic width"
 $ x4      : 'labelled' num  81 80.4 85.7 83.1 81.9 80.6 76.7 75.1 74.7 83.4 ...
  ..- attr(*, "label")= chr "palatal width-1"
 $ x5      : 'labelled' num  31.8 33.8 34.7 34 34 33 31.5 30.2 31.6 34.8 ...
  ..- attr(*, "label")= chr "palatal width-2"
 $ x6      : 'labelled' num  65.7 69.8 69.1 68 66.1 65 65 63.8 62.4 68 ...
  ..- attr(*, "label")= chr "postg foramina width"
 $ x7      : 'labelled' num  50.9 52.7 49.3 48.2 49 46.4 45.4 44.4 41.3 40.7 ...
  ..- attr(*, "label")= chr "interorbital width"
 $ x8      : 'labelled' num  44 43.2 45.6 43.8 42.4 40.2 39 41.1 44.2 37.1 ...
  ..- attr(*, "label")= chr "braincase width"
 $ x9      : 'labelled' num  18.2 18.5 17.9 18.4 17.9 18.2 16.8 16.9 17 17.2 ...
  ..- attr(*, "label")= chr "crown length"

Com a base devidamente importada e sem a presença de valores faltantes, prosseguimos com a análise descritiva:

Análise descritiva:

Primeiro, verificamos as variáveis qualitativas da base de dados:


 f  m 
 9 16 

ar rm 
16  9 

Observa-se que o grupo mais presente na amostra são de lobos machos da localização “ar”.

Para as variáveis quantitativas, considere as seguintes medidas de resumo:

variavel

Média

Desvio Padrão

Cv (%)

Mediana

Intervalo Interquartil

Assimetria

palatal length

117.36

6.06

1,936.20

117.00

113-120

0.18

postpalatal length

101.68

5.05

2,014.49

102.00

99-104

-0.19

zygomatic width

140.12

7.11

1,969.62

141.00

134-144

-0.37

palatal width-1

80.46

2.91

2,763.00

81.00

78.1-82.4

-0.56

palatal width-2

32.96

1.76

1,877.06

32.80

31.8-34

0.27

postg foramina width

66.16

2.54

2,608.76

66.40

65-68

-0.28

interorbital width

46.40

3.18

1,456.99

46.40

44.9-48.3

0.00

braincase width

40.93

2.77

1,475.86

41.10

39-43.2

-0.19

crown length

17.76

0.64

2,767.18

17.80

17.2-18.2

-0.21

Além das medidas resumos, pode ser de interesse realizar uma análise gráfica nos dados. Para isso, veja o histograma das variáveis:

'data.frame':   25 obs. of  12 variables:
 $ group   : Factor w/ 4 levels "ar:f","ar:m",..: 4 4 4 4 4 4 3 3 3 2 ...
 $ location: Factor w/ 2 levels "ar","rm": 2 2 2 2 2 2 2 2 2 1 ...
 $ sex     : Factor w/ 2 levels "f","m": 2 2 2 2 2 2 1 1 1 2 ...
 $ x1      : 'labelled' int  126 128 126 125 126 128 116 120 116 117 ...
  ..- attr(*, "label")= chr "palatal length"
 $ x2      : 'labelled' int  104 111 108 109 107 110 102 103 103 99 ...
  ..- attr(*, "label")= chr "postpalatal length"
 $ x3      : 'labelled' int  141 151 152 141 143 143 131 130 125 134 ...
  ..- attr(*, "label")= chr "zygomatic width"
 $ x4      : 'labelled' num  81 80.4 85.7 83.1 81.9 80.6 76.7 75.1 74.7 83.4 ...
  ..- attr(*, "label")= chr "palatal width-1"
 $ x5      : 'labelled' num  31.8 33.8 34.7 34 34 33 31.5 30.2 31.6 34.8 ...
  ..- attr(*, "label")= chr "palatal width-2"
 $ x6      : 'labelled' num  65.7 69.8 69.1 68 66.1 65 65 63.8 62.4 68 ...
  ..- attr(*, "label")= chr "postg foramina width"
 $ x7      : 'labelled' num  50.9 52.7 49.3 48.2 49 46.4 45.4 44.4 41.3 40.7 ...
  ..- attr(*, "label")= chr "interorbital width"
 $ x8      : 'labelled' num  44 43.2 45.6 43.8 42.4 40.2 39 41.1 44.2 37.1 ...
  ..- attr(*, "label")= chr "braincase width"
 $ x9      : 'labelled' num  18.2 18.5 17.9 18.4 17.9 18.2 16.8 16.9 17 17.2 ...
  ..- attr(*, "label")= chr "crown length"

Surge também, a necessidade de verificar a correlação entre as variáveis.

Por fim, considere o boxplot das variáveis separadas por grupo.

Don't know how to automatically pick scale for object of type <labelled>.
Defaulting to continuous.
Don't know how to automatically pick scale for object of type <labelled>.
Defaulting to continuous.
Don't know how to automatically pick scale for object of type <labelled>.
Defaulting to continuous.
Don't know how to automatically pick scale for object of type <labelled>.
Defaulting to continuous.
Don't know how to automatically pick scale for object of type <labelled>.
Defaulting to continuous.
Don't know how to automatically pick scale for object of type <labelled>.
Defaulting to continuous.
Don't know how to automatically pick scale for object of type <labelled>.
Defaulting to continuous.
Don't know how to automatically pick scale for object of type <labelled>.
Defaulting to continuous.
Don't know how to automatically pick scale for object of type <labelled>.
Defaulting to continuous.

Análise de discriminante

O primeiro passo para realizar a análise de discriminante é verificar a normalidade dos dados.

$multivariateNormality
             Test         Statistic           p value Result
1 Mardia Skewness  130.585485839606 0.977655323225403    YES
2 Mardia Kurtosis -1.69246469298591 0.090557406525583    YES
3             MVN              <NA>              <NA>    YES

$univariateNormality
              Test  Variable Statistic   p value Normality
1 Anderson-Darling    x1        0.7482    0.0446    NO    
2 Anderson-Darling    x2        0.2426    0.7421    YES   
3 Anderson-Darling    x3        0.3760    0.3852    YES   
4 Anderson-Darling    x4        0.3548    0.4330    YES   
5 Anderson-Darling    x5        0.1666    0.9297    YES   
6 Anderson-Darling    x6        0.3352    0.4816    YES   
7 Anderson-Darling    x7        0.2344    0.7695    YES   
8 Anderson-Darling    x8        0.3669    0.4052    YES   
9 Anderson-Darling    x9        0.3086    0.5348    YES   

$Descriptives
    n    Mean   Std.Dev Median   Min   Max  25th  75th        Skew   Kurtosis
x1 25 117.360 6.0613530  117.0 107.0 128.0 113.0 120.0  0.37783358 -0.9794209
x2 25 101.680 5.0474416  102.0  91.0 111.0  99.0 104.0 -0.03614483 -0.5910207
x3 25 140.120 7.1140706  141.0 125.0 152.0 134.0 144.0 -0.22556339 -0.9465287
x4 25  80.456 2.9119123   81.0  74.7  85.7  78.1  82.4 -0.31762241 -0.8908257
x5 25  32.956 1.7557240   32.8  30.1  37.2  31.8  34.0  0.28833495 -0.4745841
x6 25  66.160 2.5360731   66.4  61.6  70.3  65.0  68.0 -0.30468237 -1.0356584
x7 25  46.404 3.1849228   46.4  40.7  52.7  44.9  48.3 -0.01781211 -0.8389950
x8 25  40.928 2.7731631   41.1  34.1  45.6  39.0  43.2 -0.49839103 -0.4635248
x9 25  17.756 0.6416645   17.8  16.5  19.0  17.2  18.2 -0.10999453 -0.9733983

Permutation test for homogeneity of multivariate dispersions
Permutation: free
Number of permutations: 999

Response: Distances
          Df Sum Sq Mean Sq      F N.Perm Pr(>F)
Groups     3  27.59  9.1982 0.6012    999  0.657
Residuals 21 321.27 15.2985                     

            Df Sum Sq Mean Sq F value   Pr(>F)    
group        3   9279  3093.0   13.18 4.64e-05 ***
Residuals   21   4927   234.6                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
      ar:f ar:m rm:f rm:m
rmm1  0.00 0.00    0    1
rmm2  0.00 0.00    0    1
rmm3  0.00 0.00    0    1
rmm4  0.00 0.00    0    1
rmm5  0.00 0.00    0    1
rmm6  0.00 0.00    0    1
rmf1  0.00 0.00    1    0
rmf2  0.00 0.00    1    0
rmf3  0.00 0.00    1    0
arm1  0.00 1.00    0    0
arm2  0.00 1.00    0    0
arm3  0.00 1.00    0    0
arm4  0.00 1.00    0    0
arm5  0.00 1.00    0    0
arm6  0.01 0.99    0    0
arm7  0.01 0.99    0    0
arm8  0.00 1.00    0    0
arm9  0.01 0.99    0    0
arm10 0.53 0.47    0    0
arf1  0.93 0.07    0    0
arf2  1.00 0.00    0    0
arf3  0.99 0.01    0    0
arf4  0.99 0.01    0    0
arf5  1.00 0.00    0    0
arf6  1.00 0.00    0    0
ar:f ar:m rm:f rm:m 
 1.0  0.9  1.0  1.0 
Confusion Matrix and Statistics

          Reference
Prediction ar:f ar:m rm:f rm:m
      ar:f    6    1    0    0
      ar:m    0    9    0    0
      rm:f    0    0    3    0
      rm:m    0    0    0    6

Overall Statistics
                                         
               Accuracy : 0.96           
                 95% CI : (0.7965, 0.999)
    No Information Rate : 0.4            
    P-Value [Acc > NIR] : 4.335e-09      
                                         
                  Kappa : 0.9442         
                                         
 Mcnemar's Test P-Value : NA             

Statistics by Class:

                     Class: ar:f Class: ar:m Class: rm:f Class: rm:m
Sensitivity               1.0000      0.9000        1.00        1.00
Specificity               0.9474      1.0000        1.00        1.00
Pos Pred Value            0.8571      1.0000        1.00        1.00
Neg Pred Value            1.0000      0.9375        1.00        1.00
Prevalence                0.2400      0.4000        0.12        0.24
Detection Rate            0.2400      0.3600        0.12        0.24
Detection Prevalence      0.2800      0.3600        0.12        0.24
Balanced Accuracy         0.9737      0.9500        1.00        1.00

K-means

Pelo gráfico parece razoável escolher 4 clusters

Agrupamento hierárquico

Agora, o objetivo será realizar um agrumento hierarquico nos dados. Para isso, primeiro serão realizadas algumas mudanças na base de dados.

Veja que os dados foram padronizados, … Para realizar o agrupamento, primeiro é calculada a matriz de distâncias, depois prossegue-se com o algoritmo de ligação.

Com os resultados obtidos, é então possível realizar o agrupamento. Para isso, considere como critério a medida de dissimilaridade Sendo assim, ficaremos com o total de 3 grupos distintos.

Comparação do k-means e do agrupamento hierárquico

Para fazer a comparação, primeiro iremos atribuir as observações aos seus grupos encontrados pelos algoritmos.

Questão 3

                     pais aveg aani  fleg carn pesc  lech  card cancer lmas
JAPAO               JAPAO 12.0  2.1 166.4 43.2 71.2  68.7 110.0  106.0   77
FRANCCA           FRANCCA 16.5 18.1 221.6 96.8 28.3 262.4 108.0  131.0   74
REINOUNIDO     REINOUNIDO 16.0  9.4 171.5 73.5 20.2 222.6 193.0  137.0   74
ESPANHA           ESPANHA 26.9  4.0 251.6 99.6 37.3 161.4 143.8  120.8   74
PAISESBAIXOS PAISESBAIXOS 17.0  8.2 224.4 96.4 14.4 340.0 160.8  136.7   74
NORUEGA           NORUEGA 13.2 16.5 178.4 59.4 61.3 265.4 174.4  121.7   73
             lfem
JAPAO          84
FRANCCA        82
REINOUNIDO     80
ESPANHA        80
PAISESBAIXOS   80
NORUEGA        80

Hierarquia parcial

Em um primeiro momento, será de interesse construir um modelo hierárquico utilizando apenas as variáveis leite e fruta/legumes.

Hierarquia completa

É possível prosseguir com a análise considerando todas as variáveis. Considere, então, o método de ligação completo.

Hierarquica completa com average

Agora, o objetivo será realizar o agrupamento com o método de ligação média, isto é, metodo average.

Cortando as árvores

Vemos métodos de ligações diferentes utilizando variáveis diferentes, a fim de comparação, considere os agrupamentos utilizando a ligação completa com números de cluster 2 e 3.

Primeiro, é realizado o corte no contexto das variáveis consumo de leite e frutas/legumes.

Dessa forma, para 2 clusters temos:

Sendo assim, teriamos o primeiro cluster com Hungria, Japão e México, o segundo cluster com Espanha, Reino Unido, Noruega, Países Baixos, França e Estados Unidos.

Já para 3 clusters temos:

Sendo assim, teriamos o primeiro cluster com Hungria, Japão e México, o segundo cluster com Espanha e o terceiro com Reino Unido, Noruega, Países Baixos, França e Estados Unidos.

País

2 clusters

3 clusters

JAPAO

1

1

FRANCCA

2

2

REINOUNIDO

2

2

ESPANHA

2

3

PAISESBAIXOS

2

2

NORUEGA

2

2

EEUU

2

2

MEXICO

1

1

HUNGRIA

1

1

Ainda, fazendo o corte pra todas as variáveis:

Dessa forma, para 2 clusters temos:

Sendo assim, teriamos o primeiro cluster com Hungria, em quanto o segundo é formado pelos demais países.

Já para 3 clusters temos:

Sendo assim, teriamos o primeiro cluster com Hungria, já o segundo cluster com Espanha, Países Baixos, França e Estados Unidos, e o terceiro com Reino Unido, Noruega, Japão e México.

Ainda,

País

clustersAll_2

clustersAll_3

JAPAO

1

1

FRANCCA

1

2

REINOUNIDO

1

1

ESPANHA

1

2

PAISESBAIXOS

1

2

NORUEGA

1

1

EEUU

1

2

MEXICO

1

1

HUNGRIA

2

3

Visualização gráfico

Questão 4

Bases

Considere as bases a serem utilizadas na análise

Carregando pacotes exigidos: GGally
Registered S3 method overwritten by 'GGally':
  method from   
  +.gg   ggplot2

Anexando pacote: 'reshape2'
O seguinte objeto é mascarado por 'package:tidyr':

    smiths
Carregando pacotes exigidos: lattice
corrplot 0.92 loaded

Análise Descritiva de Dados

Média de IPS ao longo dos anos por região administrativa

Evolução anual do IPS de cada regisão administrativa

Boxplot dos indicadores de IPS por ano

Histogramas

Análise PCA

Componentes Principais e Municípios

Com base no gráfico de 2016 ,é possível perceber que o IPS é bastante influenciado pela primeira componente principal. Essa componente trata majoritariamente do Acesso a educação e Informação. Diante disso, conclui-se que regiões como Lago, Botafogo e Copacabana possuem um alto IPS devido, em grande parte, aos altos indices de acesso a educação e informação. Em contraste com isso, as regiões como Jacarezinho, Rocinha e Complexo do Alemão possuem um IPS mais baixo, em maioria, devido a falta desses recursos.

Agrupamento Hierárquico das Regiões Administrativas

Utilizando-se do método hierárquico completo, é possível perceber que as regiões administrativas foram agrupadas em 4 clusters.

Gráfico Média do IPS Geral por Cluster Hierárquico ao Decorrer dos Anos

A partir do gráfico, é possível perceber que o cluster 1 possui uma média de IPS Geral mais alta, enquanto o cluster 4 possui a menor média.
`summarise()` has grouped output by 'cluster'. You can override using the
`.groups` argument.
Converting 'ano' to an ordered factor

Nas análises a seguir, as regiões administrativas Rocinha, Maré, Lagoa e Méier foram escolhidas para uma avaliação detalhada do ###### comportamento de seus indicadores ao longo dos anos.

Comportamento dos Indicadores que mais Impactam o PC1 Positivamente na Rocinha, Maré, Lagoa e Méier


Converting 'ano' to an ordered factor


Converting 'ano' to an ordered factor


Converting 'ano' to an ordered factor


Converting 'ano' to an ordered factor

Comportamento dos Indicadores que mais Impactam o PC1 Negativamente na Rocinha, Maré, Lagoa e Méier


Converting 'ano' to an ordered factor


Converting 'ano' to an ordered factor


Converting 'ano' to an ordered factor


Converting 'ano' to an ordered factor